Machine Learning models capable of handling the large datasets collected in the financial world can often become black boxes expensive to run. The quantum computing paradigm suggests new optimization techniques, that combined with classical algorithms, may deliver competitive, faster and more interpretable models. In this work we propose a quantum-enhanced machine learning solution for the prediction of credit rating downgrades, also known as fallen-angels forecasting in the financial risk management field. We implement this solution on a neutral atom Quantum Processing Unit with up to 60 qubits on a real-life dataset. We report competitive performances against the state-of-the-art Random Forest benchmark whilst our model achieves better interpretability and comparable training times. We examine how to improve performance in the near-term validating our ideas with Tensor Networks-based numerical simulations.
translated by 谷歌翻译
While the problem of hallucinations in neural machine translation has long been recognized, so far the progress on its alleviation is very little. Indeed, recently it turned out that without artificially encouraging models to hallucinate, previously existing methods fall short and even the standard sequence log-probability is more informative. It means that characteristics internal to the model can give much more information than we expect, and before using external models and measures, we first need to ask: how far can we go if we use nothing but the translation model itself ? We propose to use a method that evaluates the percentage of the source contribution to a generated translation. Intuitively, hallucinations are translations "detached" from the source, hence they can be identified by low source contribution. This method improves detection accuracy for the most severe hallucinations by a factor of 2 and is able to alleviate hallucinations at test time on par with the previous best approach that relies on external models. Next, if we move away from internal model characteristics and allow external tools, we show that using sentence similarity from cross-lingual embeddings further improves these results.
translated by 谷歌翻译
布尔网络(BNS)是离散的动力系统,具有应用于细胞行为建模的应用。在本文中,我们演示了如何使用软件玻璃体来详尽地识别扰动的组合,从而在其固定点和吸引子上实现属性。我们考虑标记属性,该属性指定某些组件固定为特定值。我们研究了标记重编程问题的4个变体:固定点的重编程,最小陷阱空间以及固定点和最小陷阱空间的重新编程,可从给定的初始配置以最宽松的更新模式到达。扰动包括将一组组件固定为固定值。他们可以摧毁并创建新的吸引者。在每种情况下,我们都会在其理论计算复杂性上给出一个上限,并使用Bonesis Python框架实现分辨率。最后,我们将重编程问题提升为Bonesis的支持,将重新编程的问题带到BNS的集合,从而深入了解可能的和普遍的重编程策略。本文可以进行交互执行和修改。
translated by 谷歌翻译
减少斑点并限制合成孔径雷达(SAR)图像中物理参数的变化通常是完全利用此类数据潜力的关键步骤。如今,深度学习方法产生了最新的现状,从而导致单位SAR修复。然而,现在经常可用巨大的多阶梯堆栈,并且可以有效利用以进一步提高图像质量。本文探讨了两种快速的策略,这些策略采用单像伪装算法,即SAR2SAR,在多个阶段的框架中。第一个是基于Quegan过滤器,并取代了SAR2SAR的局部反射率预估计。第二个使用SAR2SAR来抑制从“超级图像”的形式(即时间序列的时间算术平均值)形式的形式编码多个时间段信息的比率图像中抑制斑点。 Sentinel-1 GRD数据的实验结果表明,这两种多时间策略提供了改进的过滤结果,同时增加了有限的计算成本。
translated by 谷歌翻译
斑点过滤通常是分析合成孔径雷达(SAR)图像的先决条件。在单像伪装的领域取得了巨大进步。最新技术依靠深度神经网络来恢复SAR图像特有的各种结构和纹理。 SAR图像的时间序列的可用性提供了通过在同一区域结合不同斑点实现来改善斑点过滤的可能性。深度神经网络的监督培训需要无基真斑点图像。这样的图像只能通过某种平均形式,空间或时间整合间接获得,并且不完美。考虑到通过多阶段斑点滤波可以达到非常高质量的恢复的潜力,需要规避地面真相图像的局限性。我们将最新的自我监督训练策略扩展到了称为Merlin的单外观复杂SAR图像的情况,以进行多个颞滤波。这需要对空间和时间维度以及复杂幅度的真实组件和虚构组件之间的统计依赖性来源进行建模。使用模拟斑点上的数据集进行定量分析表明,当包括其他SAR图像时,斑点减少了明显改善。然后,将我们的方法应用于Terrasar-X图像的堆栈,并显示出优于竞争的多阶段斑点滤波方法。在$ \ href {https://gitlab.telecom-paris.fr/ring/multi-temporal-merlin/} {\ text {gitlab}} $上LTCI实验室,T \'El \'Ecom Paris Institut Polytechnique de Paris。
translated by 谷歌翻译
自动驾驶汽车广泛使用屋顶旋转的LIDAR传感器,推动了3D点序列实时处理的需求。但是,大多数激光雷达语义细分数据集和算法将这些收购分为$ 360^\ circ $框架,从而导致收购潜伏期与现实的实时应用程序和评估不符。我们通过两个关键贡献来解决这个问题。首先,我们介绍Helixnet,这是一个10亿美元的点数据集,具有细粒度的标签,时间戳和传感器旋转信息,可以准确评估分割算法的实时准备就绪。其次,我们提出了helix4d,这是一种专门设计用于旋转激光雷达点序列的紧凑而有效的时空变压器结构。 Helix4D在采集切片上运行,对应于传感器的全部旋转的一部分,从而大大降低了总延迟。我们介绍了Helixnet和Semantickitti上几种最先进模型的性能和实时准备的广泛基准。 Helix4D与最佳的分割算法达到准确性,而在延迟和型号$ 50 \ times $中,降低了$ 5 \ times $。代码和数据可在以下网址获得:https://romainloiseau.fr/helixnet
translated by 谷歌翻译
In this paper we present two datasets for Tamasheq, a developing language mainly spoken in Mali and Niger. These two datasets were made available for the IWSLT 2022 low-resource speech translation track, and they consist of collections of radio recordings from the Studio Kalangou (Niger) and Studio Tamani (Mali) daily broadcast news. We share (i) a massive amount of unlabeled audio data (671 hours) in five languages: French from Niger, Fulfulde, Hausa, Tamasheq and Zarma, and (ii) a smaller parallel corpus of audio recordings (17 hours) in Tamasheq, with utterance-level translations in the French language. All this data is shared under the Creative Commons BY-NC-ND 3.0 license. We hope these resources will inspire the speech community to develop and benchmark models using the Tamasheq language.
translated by 谷歌翻译
本文致力于构建新的快速评估模型,用于预测混凝土微结构中的2D裂纹路径。该模型产生分段线性裂缝路径,使用Markov链模型选择的分段点。Markov Chain Kernel涉及机械兴趣的局部指标,并且使用称为XPER的内聚容积有限元求解器从数值全场2D模拟中学到的参数。与XPER的模拟相比,所产生的模型表现出CPU时间的急剧提高。
translated by 谷歌翻译
本文介绍了我们在Biocreative VII的Covid-19文学注释任务上提交。我们提出了一种利用全球非最佳权重的知识的方法,通常被拒绝,以构建每个标签的丰富代表性。我们所提出的方法包括两个阶段:(1)培训数据的各种初始化的召唤,具有弱训练的权重,(2)基于BERT和Roberta Embeddings的异构词汇模型的堆叠。这些弱洞察的聚合比经典全球有效的模型更好。目的是将知识丰富的蒸馏到更简单和更轻的模型。我们的系统获取基于实例的F1,为92.96和基于标签的微F1,为91.35。
translated by 谷歌翻译
斑点波动严重限制了合成孔径雷达(SAR)图像的可解释性。因此,散斑减少是跨越至少四十年的众多作品的主题。基于深度神经网络的技术最近在SAR图像恢复质量方面实现了一种新的性能。超出了合适的网络架构的设计或选择足够的损失功能,培训集的构建是最重要的。到目前为止,大多数方法都考虑了监督培训策略:培训网络以产生尽可能靠近斑点的参考图像的输出。无斑点图像通常不可用,这需要采用自然或光学图像或在长时间序列中选择稳定区域,以规避缺乏地面真理。另一方面,自我监督避免使用无斑点图像。我们介绍了一个自我监督的战略,基于单眼复杂的SAR图像的真实和虚构部分的分离,称为Merlin(复杂的自我监督的机除),并表明它提供了一种培训各种深度掠夺的直接途径网络。由于特定于给定传感器和成像模式的SAR传输功能,使用Merlin培训的网络考虑了空间相关性。通过只需要一个图像,并且可能利用大型档案,Merlin将门打开了无忧无虑的机器,以及对机器网络的大规模培训。培训型号的代码是在https://gitlab.telecom-paris.fr/ring/mollin的。
translated by 谷歌翻译